بازشناسی متون چاپی فارسی

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس
  • نویسنده رضا عزمی
  • استاد راهنما احسان الله کبیر
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1378
چکیده

برای بازشناسی کلمات سه رویکرد مبتنی بر جداسازی، مبتنی بر بازشناسی کلمه یک الگوی واحد و رویکرد ترکیبی مطرح است . در این رساله یک سیستم برای بازشناسی متون چاپی فارسی با استفاده از رویکرد ترکیبی ارائه شده است . یک الگوریتم جدید برای جداسازی حروف در کلمات چاپی بدون توجه به نوع قلم ارائه شده است . مراحل مختلف الگوریتم شامل تعیین نوار زمینه، تصحیح آن و جداسازی حروف است . در تعیین نوار زمینه روش جدیدی براساس منحنی پیرامونی زیر کلمات ارائه شده است . نقاط جداسازی با اعمال قواعدی در قالب یک دیاگرام حالت روی منحنی پیرامونی کلمات تعیین می شوند. در یک آزمون روی چند صفحه متن چاپی شامل حدود 11 هزار حرف با قلمهای مختلف حدود 99 درصد از حروف بدرستی جداسازی شده اند. برای بازشناسی حروف با قلمهای گوناگون دو الگوریتم مختلف ارائه شده است . الگوریتم اول از کدهای فریمن کانتور حروف به عنوان ویژگی و از یک اتوماتون آماری برای طبقه بندی استفاده می کند. الگوریتم دوم از تبدیل هاف که برای اولین بار در این رساله با روش فازی محاسبه شده است در مرحله استخراج ویژگی و از یک شبکه عصبی پس انتشار خطا در مرحله طبقه بندی استفاده می کند. الگوریتم های فوق روی مجموعه ای از حروف شامل 11500 نمونه از دو قلم مختلف آزموده شده است و میزان بازشناسی به ترتیب 97ˆ13 و 98ˆ32 درصد بوده است . در این تحقیق برای بکارگیری شکل کلی زیر کلمات در بازشناسی آنها، از دیکشنری تصویری استفاده شده است . به این منظور سه دیکشنری مختلف با استفاده از ویژگیهای مکان مشخصه، توصیف کننده های فوریه و بر چسب های کانتور بالایی طراحی شده و آزمایش های مختلفی روی آنها انجام گرفته است . در مرحله نهایی این تحقیق سیستمی برای بازشناسی زیر کلمات فارسی با یک رویکرد ترکیبی ارائه شده است . در این سیستم با جداسازی و بازشناسی حروف شاخص زیر کلمه رویکرد مبتنی بر جداسازی و با در نظر گرفتن یک دیکشنری تصویری برای بدنه زیر کلمات رویکرد بازشناسی کلمه بعنوان یک الگوی واحد در نظر گرفته شده است . نوع و موقعیت نقاط و علائم نیز در بازشناسی زیر کلمات بکار گرفته شده اند. اطلاعات آماری درباره احتمال رخداد متوالی حروف شاخص و امتیاز حاصل از بازشناسی آنها به کمک مدل مخفی مارکوف و یک الگوریتم ویتربی تغییر یافته برای بازشناسی زیر کلمات بکار گرفته شده اند. سیستم ترکیبی نهایی روی یک متن با چهار قلم مختلف آزموده شده و نتایج با جزئیات مختلف ارائه شده است .

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

بازشناسی متون چاپی فارسی با استفاده از مدل پنهان مارکوف

این پایان نامه روشی برای بازشناسی متون چاپی فارسی و زبان های دارای الفبای مشابه آن مانند عربی ارائه می دهد. بازشناسی آخرین مرحله در فرآیند ocr است که در آن به وسیله ویژگی های به دست آمده از تصویر، متن موجود در آن تشخیص داده می شود. تصویر مورد استفاده، در مراحل قبل پیش پردازش شده، انواع نویزها و چرخش آن برطرف گشته، و در نهایت دودویی شده است. در این روش، نوع و اندازه قلم یا قلم های استفاده شده در...

بازشناسی مستقل از اندازه متون چاپی فارسی با استفاده از توصیفگرهای مستقل از مقیاس و روش های انتخاب ویژگی

این پایان نامه در خصوص بازشناسی متون چاپی فارسی و عربی به صورت مستقل از اندازه قلم است. بازشناسی آخرین مرحله در فرآیند ocr می باشد. در مراحل قبل انواع نویزها و چرخش موجود در تصویر برطرف شده، و ویژگی های مورد نظر از تصویر استخراج شده است. در روش پیشنهادی سیستم برای هر قلم فقط در یک اندازه مشخص آموزش داده می شود و پس از آن با دقت قابل قبولی در بازه ای از اندازه ها قادر به بازشناسی متون چاپی فار...

15 صفحه اول

بازیابی متون چاپی فارسی بر اساس پرس و جوی کلمات

در این پایان نامه روشی جدید برای بازیابی و جستجوی کلمات فارسی از میان متون تصویری فارسی ارائه شده است. همچنین روشی مبتنی بر اندازه و شکل نقاط موجود در مستند پس از آستانه گذاری، جهت تشخیص قلم و اندازه قلم مستندات تصویری فارسی ارائه شده است. روش ارائه شده برای تشخیص قلم از اولین روش هایی می باشد که می تواند با دقت بسیار بالایی اندازه قلم مستند فارسی را هم تشخیص دهد. برای ارزیابی روشهای ارائه شده ...

15 صفحه اول

بازشناسی عبارات ریاضی با استفاده از شبکه اتصالات مجازی کاراکترها جهت افزایش نرخ بازشناسی در متون چاپی

بازشناسی عبارات ریاضی یکی از مسایل مهم در تبدیل اسناد علمی و مهندسی به قالب الکترونیکی می باشد و به عبارت دیگر هدف از تحقیقات در این زمینه، تبدیل تصویر یک عبارت ریاضی به معادل متنی آن می باشد. این مسأله به طور کلی شامل سه بخش اصلی می باشد: 1- استخراج عبارات ریاضی از اسناد 2- شناسایی نمادهای موجود در عبارت. 3- بررسی ساختاری عبارت و تبدیل به شکل متنی. در این پایان نامه به هر یک از مراحل فوق د...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023